【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果
点击上方“专知”关注获取专业AI知识!
【导读】近日,中山大学、新加坡国立大学和奇虎360人工智能研究院团队提出了一种具有注意机制的对抗哈希网络(adversarial hashing network)来进行跨模态检索,通过选择性地聚焦多模态数据中有信息量的部分来提升相似性内容的度量性能。文中利用对抗网络在跨模态检索中实现了注意力机制,提出的HashGAN大幅提升了现有的最好的方法。提出的HashGAN包含三个模块:(1)特征学习模块,来获得特征表示;(2)注意力生成模块,其生成一个注意力mask,用于获得被关注(前景)和未被关注的(背景)特征表示;(3)有判别力的哈希编码模块,其用来学习哈希函数,以保存不同模态的相似性。
▌详细内容
由于互联网的迅速发展,不同类型的媒体数据迅速增长,例如文本、图像和视频。这些不同类型的数据可以描述相同的事件或主题。例如,Flickr中的照片允许用户进行交互评论。因此,开发多模态数据检索模型是一个迫切的需求。跨模态检索是一种基于多模态数据的搜索方法,它以一种模态的数据作为查询,返回另一种模态的相关数据,该任务正受到越来越多的关注。该任务的解决方法大致可分为两类:实值表示学习(real-valued representation learning)和二进制表示学习(binary representationlearning)。由于二进制表示的存储成本低,检索速度快,本文只研究跨模态二进制表示学习方法(即Hashing)。
迄今为止,已经提出了各种跨模态Hashing算法来嵌入不同数据模态之间的相关性。在跨模态Hashing过程中,特征提取被认为是表示多模态数据的第一步,然后将这些多模态特征投影到一个公共的汉明空间(Hamming space)中,以便将来搜索。许多方法使用浅层结构进行特征提取。例如,集体矩阵分解的Hashing(CMFH)和语义相关性最大化(SCM)Hashing使用手工特征。近年来,由于对数据良好的学习能力,深度学习技术也被应用到跨模态哈希算法中。其中,基于深度学习的跨模态哈希方法中具有代表性的工作包括深度跨模态哈希(DCMH),深度视觉语义哈希(DVSH),成对关系深度哈希(PRDH)等等。
与此同时,“注意力”的计算模型由于其在各种应用中取得令人振奋的结果而引起了研究者们的兴趣,例如图像caption。跨模态检索问题同样需要注意力机制。例如,如图1所示,给定查询语句是“女孩坐在驴上”,如果我们可以找到图像中的更有信息量的对象(例如,黑色区域),则可以获得更高的准确性。据我们所知,对于跨模态hashing机制,注意力机制还没有得到很好的应用。
图1:HashGAN模型的主旨。以文本-图像任务为例。T和
G表示生成器用来生成注意力mask,D是保持相似性的hash函数。两个图像
本文提出了一种具有注意力机制的对抗哈希网络。理想的情况下,好的注意力masks应定位有判别力的区域,这也意味着无注意力的区域是无信息的且难以保持其相似之处。因此,在我们提出的网络通过自适应注意力masks生成多模态数据,然后将数据划分成注意力样本(只保留数据的前景)和非注意力样本(只保留数据的背景)。这样,一个好的辨别hashing应该保持前景样本(可以看作是简单的例子)和背景样本(困难的例子)的相似性以提高鲁棒性和学习的哈希函数的性能。良好的生成器应该生成注意力mask,使得判别器不能保持背景样本的相似性,因为非注意力的区域不应该是具有判别性的。
基于此,我们提出了一种新的被称为HashGAN对抗模型,如图2所示,由三个主要部分组成:(1)特征学习模块利用CNN网络或MLP提取多模态数据的高层语义表示;(2)注意力生成模块来生成自适应注意力mask,将特征表示分为注意力特征和非注意力特征表示;(3)针对多模态数据的二进制编码的判别式哈希模块。HashGAN交替的训练两个对抗网络:判别器是学会为简单的前景特征表示和困难的背景特征表示保持的相似性,而生成器学习产生的注意力mask,使判别器不能保持背景特征表示的相似性。为了获得良好的注意力mask和强大的hashing函数,本文提出了对抗性检索损失和跨模态检索损失。
图2:HashGAN模型的概览。上面是图像模态分支,下面是文本模态分支。每个分支被划分成三部分:特征学习、注意力生成和判别hashing。特征学习将多模态数据映射为高层次的特征表示。然后生成器学习这些特征的注意力mask。注意力前景特征和非注意力背景特征通过注意力mask生成。最终,判别器用二进制编码所有的特征,来学习哈希函数。我们交替的训练生成器和判别器,生成器最大化背景特征的检索损失,来生成好的mask,判别器最小化前景特征和背景特征的错误来获得有效的二进制编码。
我们工作的主要贡献有三点:
首先,我们针对跨模态hash问题提出一种注意力感知方法,该方法能够检测多模态数据的信息区域。
其次,我们提出了一个HashGAN模型,同时学习有效的注意力mask和紧凑的二进制编码。
第三,我们定量地评估了跨模态哈希中注意力的有效性,通过与几种最先进的方法进行比较,证明我们的方法能取得更好的性能。
▌模型简介
整体目标函数:
E,G,D分别表示特征生成模块、生成器、判别器;上标I,T分别表示图像和文本模态。上式右端的前两项表示背景特征上的文本->图像和图像->文本的对抗损失,后四项表示两种模态间两两之间的检索损失。这6项均采用triplet loss。
训练过程与传统的GAN类似,即交替优化生成器G和判别器D:
(1)训练判别器D:
(2)训练生成器G:
▌实验
表1:两种跨模态检索任务MAP的比较
图7 (a) 从文本到图像任务的查询结果。(T-I)
图7 (b)从图像到文本任务的查询结果。(I-T)
图8:一些图像和masks的展示。第一行是原始图像,masks在中间。组合显示在底部。
论文:HashGAN:Attention-aware Deep Adversarial Hashing for Cross Modal Retrieval
▌摘要
随着多模态数据的快速增长,hashing方法在跨模态检索方面受到了广泛关注。基于深层网络的跨模态hashing方法吸引了更多关注,因为这类方法可以把特征学习和hash 编码整合到端到端的训练框架。然而,由于数据异质性,在不同的数据模式之间找到内容的相似性仍然是具有挑战性的任务。
为了进一步解决这个问题,我们提出了一个具有注意机制的对抗哈希网络(adversarial hashing network),通过选择性地聚焦多模态数据中有信息量的部分来提升相似性内容的度量性能。我们提出的HashGAN包含三个模块:(1)特征学习模块,来获得特征表示;(2)注意力生成模块,其生成一个注意力mask,用于获得被关注(前景)和未被关注的(背景)特征表示;(3)有判别力的哈希编码模块,其用来学习哈希函数,以保存不同模态的相似性。在我们的框架中,生成模块和判别模块是用对抗的方式训练:关于背景特征的表示,生成器的目的是令判别器无法维持不同模态数据间的相似性。对于前景和背景特征表示,判别器的目的是维持多模态数据的相似性。在几个benchmark数据集上的实验表明,本文提出的HashGAN大幅提升了现有的最好的方法。
特别提示-HashGAN下载:
请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),
后台回复“HashGAN” 就可以获取对应论文pdf下载链接~
-END-
专 · 知
人工智能领域主题知识资料查看获取:【专知荟萃】人工智能领域23个主题知识资料全集(入门/进阶/论文/综述/视频/专家等)
请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!
请关注我们的公众号,获取人工智能的专业知识。扫一扫关注我们的微信公众号。
请加专知小助手微信(Rancho_Fang),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等,或者加小助手咨询入群)交流~
点击“阅读原文”,使用专知!